A evolução da NLP representa uma mudança fundamental no tratamento da linguagem como símbolos discretos e isolados para mapeá-la em um espaço vetorial contínuo e multidimensional. Passamos de representações simples representações baseadas em características para mapas semânticos profundos.
A Mudança na Representação
- A Era Estatística (Esparsa): A NLP inicial dependia do algoritmo TF-IDF. Embora eficaz para recuperação, sofre com a "maldição da esparsidade". Em um sistema TF-IDF, "Médico" e "Doutor" são vetores ortogonais — matematicamente, não têm relação alguma.
- A Revolução Distribuída (NNLM e Word2Vec): Modelos de Linguagem de Redes Neurais introduziram vetores densos. O Word2Vec (Skip-gram/CBOW) aprende que palavras que aparecem em contextos semelhantes devem ser vizinhas no espaço.
- Estatísticas Globais (GloVe): Vetores Globais pontuam a lacuna analisando a co-ocorrência global em todo o corpus, garantindo que a distância refletirá a similaridade semântica matemática.
Pergunta Profunda
A transição de contar ocorrências para prever contexto permite que os modelos capturassem nuances. Essa "Representação Distribuída" significa que o significado de uma única palavra é distribuído por centenas de dimensões vetoriais, cada uma podendo representar uma característica semântica latente, como gênero, realeza ou contexto médico.